Does clust influence on sources affect small and big deposits?

load influence scores

Adding Flux info

Calculating raw pearson correlation between influence and flux

tutti i test confermano la normalità dei dati in input

le tre variabili 'distance_from_coastline(km)', 'distance_to_nearest_cluster(km)' e 'nearest_cropout(km)' sono collineari, ne scegliamo una, stessa cosa per l'area cropout presente entro i due raggi 500 e 1000 km e anche per le influenze

le tre variabili candidate per il modello finale sono le seguenti:

non abbiamo nessuna collinearità, continuiamo l'analisi

dall'analisi degli scatterplot delle variabili a disposizione contro la variabile target vediamo nei rispettivi plot: 1) distance_to_nearest_cluster(km) suggerisce una buona correlazione negativa, all'aumentare della distanza dai cluster il flux delle particelle sembra diminuire abbastanza linearmente 2) cropout_area_within_1000km è troppo sparsa, si vede una nuvola di punti, si decide di scartare la variabile 3) influenced_by_cluster ha una buona relazione come ci ha già detto il coefficiente di Pearson, ma la stazione TALDICE rappresenta un forte outlier ripsetto gli altri score bisognerà quindi vedere se trasformando i dati il punteggio del modello migliorerà

Helping variables and functions...

Proviamo un primissimo modello, sono con le influenze, non modificate, per vedere qual è la baseline

OLS: FLUX ~ influence + c

I residui sono distribuiti normalmente secondo tutti i test, abbiamo R2 intorno al 71,6%, sicuramente un buon inizio, ma dal grafico del modello di regressione
vediamo la maggior parte dei record schiacciati a sinistra, valutiamo quindi delle trasformazioni che rendano più lineari i dati
avendo molti valori compresi tra 0 e 1 e un solo outlier la trasformazione più consona è la radice, in quanto avvicinerà i valori tra loro
esploriamo le possibilità

la radice quadrata migliora la situazione ma non è ancora del tutto lineare, la radice cubica sembra la migliore, la base 4 tende ad aprire un po' troppo i valori
controlliamo i modelli per vedere se il fitting aumenta e se la variabile rimane significativa come ci aspettiamo

OLS: FLUX ~ sqrt(influence) + c

i residui sono normali, R2 aumenta a 0.84 e la differenza tra R2 normale e adjusted si riduce, l'intercetta diventa non significativa

proviamo stesso modello ma senza intercetta

OLS: FLUX ~ sqrt(influence)

Il modello quadratico senza costante migliora rispetto a quello con costante, si arriva a R2 0.875

OLS: FLUX ~ rad_cubica(influence)

migliora ancora il fitting, si avvicinano ancora gli R2, si arriva a 0.94 e nel grafico di regressione i punti iniziano ad essere molto meglio distribuiti

OLS: FLUX ~ rad_quarta(influence)

scende seppur di poco R2 a fronte dell'aumento di complessità, radice quarta non giustificata
Utilizzando la radice cubica dello score di influenza si ottiene il fitting migliore arrivando a spiegare circa il 94% della varianza della variabile Target
Analizziamo adesso un modello multivariato introducendo anche la distanza dai cluster, che sembra seguire una relazione simile
Calcolando le radici la relazione sembra più lineare

OLS: FLUX ~ rad_cubica(influence) + rad_cubica(distanza) + c

Introducendo anche la distanza la varianza spiegata sale al 99%, le variabili sembrano sufficienti per spiegare al massimo il target, inoltre nel caso multivariato pur mantenendo le raidic tutte e tre le variabili sono significative, anche l'intercetta, suggerendo un modello più robusto e completo

Con solo due variabili dipendenti possiamo visualizzare il modello identificato nello spazio tridimensionale